本文介绍了IM,这是通过自动回归目标预先训练的视觉模型的集合。这些模型的灵感来自其文本对应物,即大型语言模型(LLMS),并显示出相似的缩放范围。具体来说,我们重点介绍了两个关键发现:(1)视觉特征的尺度具有模型容量和数据量,(2)Objective函数的值与下游任务上模型的性能相关。我们通过预先培训70亿个参数A IM对20亿张图像进行了培训来说明这些发现的实际含义,该参数在Imagenet-1K上具有冻结的躯干,在Imagenet-1K上实现了84.0%。有趣的是,即使在这个规模上,我们也没有观察到性能饱和的迹象,这表明IM可能代表了训练大规模视觉模型的新领域。IM的预训练与LLM的预培训相似,并且不需要任何特定图像的策略来稳定训练。
![arxiv:2401.08541v1 [cs.cv] 2024年1月16日PDF文件第1页](/bimg/e/ef2678750d4e370b5f71eb5e8494abcf71d2eea0.webp)
![arxiv:2401.08541v1 [cs.cv] 2024年1月16日PDF文件第2页](/bimg/9/92bb55e0949c5dd5d677b0e645f08160bd5459d3.webp)
![arxiv:2401.08541v1 [cs.cv] 2024年1月16日PDF文件第3页](/bimg/9/9a35b1edbda9208f97c98078e2c18d7e8d5270c5.webp)
![arxiv:2401.08541v1 [cs.cv] 2024年1月16日PDF文件第4页](/bimg/6/6ba118446fa194a55eceedad3df5cfbeb7cc3657.webp)
![arxiv:2401.08541v1 [cs.cv] 2024年1月16日PDF文件第5页](/bimg/3/36991c3f7a4b9db5bf5c73149195931bcf4b02fd.webp)
